How to Justify Your Sample Size
注:本文在Open Science Club首发,原文有大量超链接,请点击阅读原文,了解更多信息。版权所有,转载请联系本人(hcp4715@hotmail.com)。
最近不止一个朋友询问我关于样本量(sample size)、功效分析(power analysis,也有翻译成为检验力、检出力)或效应量(effect size)相关的问题。这些问题可能都是源于在审稿中碰到的一个问题:你是如何确定你现在这篇文章中的样本量的?这个问题可能有几个变式:你的样本似乎有点小,不足以说明你的效应稳定;作者需要计算一下样本量;或者“我建议作者重复自己的实验或者增加样本量”。
很多人看到这个问题时一脸懵逼。what? 还有这个操作?内心的想法是:难道大家不都是用这么大的样本量么?先前的研究中都没有说明样本量是如何选择的呀!?
是的,先前的研究可能都是这么“任性”地使用20个被试并且完全不提为什么。
但是,the winds have changed。
现在主流的学术杂志都开始明确要求在方法部分说明样本量是如何选择的。比如包括Nature系列杂志,比如心理学中Psych. Sci.。
从这个角度来讲,审稿人的要求可能可以理解。有可能他本人并不是统计学专家,甚至可能他原本不太关心这个问题。但是现在杂志在审稿要求中明确列出这一点来,他作为一个负责人的审稿人,不得不重视这个问题。
作为想要将自己研究成果发表的科研人员,我们应该如何做?
以下我根据自己个人的知识和理解,先简单介绍一下效应量、样本量、统计功效和alpha水平四者之间的关系,然后在此基础上提出一些个人的建议,希望对大家有所帮助。
1 为什么需要进行功效分析?
这个问题一直是心理学方法中非常严重的一个缺陷,但是一直被忽视。近60年过去了,终于开始有些重视。简单来说,如果我们使用p < 0.05作为拒绝H0的标准,那么我们需要非常非常注意研究的功效,因为即便真实存在效应,p值的分布会随着统计功效的变化而不同,这一点在Nature Methods的一篇文章说得非常清楚:The fickle P value generates irreproducible results。简单来说,如果你的统计功效为50%,那么你做一次实验的话,有50%的可能得到p < 0.05,50%可能得到p > 0.05。所以假如你的实验的统计功效为50%,怎么能够说服审稿人你得到这个结果不是运气?
当然,你可能会说,我已经得到一个非常“显著”的结果,p = 0.001,我用G*power算了统计功效,非常好啊,已经超过80%了!但问题是,这里的事后的统计功效 (post hoc power),其计算是根据你现在实验估计出来的效应量来计算统计功效。如果你的样本量很小,并且得到了P = 0.001的话,那么你计算出来的效应量是非常大的(inflated),而根据这个夸大的效应量所计算出来的统计功效,必然是非常大的。所以这是为什么审稿人不会认同事后的统计功效。
在上面这段说明里面,提到了在零假设检验 (Null Hypothesis Significant Test, NHST)中四个相互关联的统计量:样本量、效应量、alpha水平和统计功效。这四个变量中,如果我们确定了其中的三个,那么第四个变量就可以计算出来。
对于这四个变量之间关系,我之前在我爱脑科学网上的一篇博客里提到过:如何使用G*power计算统计检验力。但是这个网站的可视化更加清晰易懂:Understanding Statistical Power and Significance Testing,所以就不细讲了。
那从科学的角度来讲,为什么审稿人想要知道你是如何选择现在的样本量的?我个人的理解是:审稿人/科研共同体本质上是关注你研究的效应是否稳定,也就是你通过这个实验对某一个现象的效应量进行的估计是否靠谱。如果你是审稿人,你也不希望你手下通过的文章在几年后被人发现是无法重复、是虚假的阳性结果。
那么如何确定你的效应量是可靠的呢?既然alpha水平已经确定了(大部分情况下是0.05或者校正或者的0.05之类),你的样本量也已经摆在这里了,效应量也已经计算出来了(或者通过p值/均值差异可以计算出来),但是统计功效对于审稿人来说却还完全未知。由于效应量会随着统计功效的变化有极大的变化(在这个网站上可以固定alpha, sample size, 改变power来观察effect size的变化),这种情况下,审稿人实际上对你报告的效应量是没有信心的,所以TA需要知道你的统计功效如何,你是否通过样本量的选择来让统计功效达到了可以接受的效果。
那么如何我们如何应对?
2 假如你的研究已经在审稿之中,如何说服审稿人?
一般来说,由于研究者对当前杂志要求的变化没有及时跟进,所以在投稿的时候可能没有意识到这可能是一个问题,所以会被审稿人或者编辑问到。目的就是上面提到了,了解这个研究的统计功效如何。
在这种情况下,我们作为作者能够做的,可能就是首先根据先前类似研究的效应量来计算样本量。先前这两个字很重要,但是又会分很多情况:
情况一:你的研究问题已经有了对效应量的元分析。比如Quantifying Trustworthiness of Empirical Research 这个网站上,就有许多研究的元分析结果;另外,像Psych. Bull., Neurosci. Biobehav. Rev.上,也有许多元分析。根据元分析结果的效应量作为先验的效应量来计算你的样本量,非常具有说明力,因为元分析通常是对一个领域非常好的总结;
情况二:你的研究问题没有元分析,但是有一些少量的研究。这种情况,你可以自己把这些研究找出来,自己做一个元分析,可以参与我在这个网文中提到了方法:Mini Meta-analysis或者单个论文中的元分析。但是如果主题类似的研究确实非常少(你会不会在想:如果研究非常多我还做这个问题干什么哟),比如只有一篇,那么也可以就根据这一篇研究的结果中的效应量来计算样本量。但是非常值得注意的是,这种情况下,你用来进行功效分析的效应量极可能受到了出版偏见(publication bias)的影响而变得虚高。当然,有先前的研究作为先验效应量,算是有据可循。
情况三:你的研究问题从来没有做过。这种情况,按照以往的做法,一般会做一个小样本的预实验(pilot study)来预估效应量,但是这种做法是不靠谱的:When power analyses based on pilot data are biased: Inaccurate effect size estimators and follow-up bias。所以我推荐去努力从文献中寻找类似的研究,再根据这些研究来估计效应量会更有说明力。
情况四:你连类似的研究都找不到,怎么办?我个人认为可以采用整个领域最常见的效应量作为你的先验效应量。比如这个网站中提到的著名的元分析: One Hundred Years of Social Psychology Quantitatively Described。根据这个研究,社会心理学中最通常的效应量大约是相关系数r = 0.21。其他领域研究中,也可以去寻找一些方法学的论文作为支持。比如在Life after p-hacking这个PPT(Life after P-Hacking)中,几位研究者指出:
One conclusion is that most experimental research cannot be successful without at least 50 observations per condition.
在fMRI研究中,有研究指出(How Sample Size Influences The Replicability Of Task-Based fMRI):
sample sizes much larger than typical (e.g., N=100) produce results that fall well short of perfectly replicable.
(当然我知道绝大部分实验室可能无法达到这个标准)。
好了,假定我们在上述几种情况下达到了一个样本量(通常可能会比较大),那么作者可能面临着不同的情况:是否能够继续补充数据。
如果实验比较容易完成,补充数据,重复自己的实验,将是最负责的方式。
如果研究数据非常特殊,无法再补充数据了,那么只能跟审稿人说明情况了。
比如我最近看到Nature Neuroscience上有文章如是说:
No statistical methods were used to predetermine sample sizes, but our sample sizes are similar to those reported in previous publications.
能不能说服审稿人,我也不能确定。但如果无法重复自己的研究也无法补充数据的话,那么至少在对研究的结论方面,需要有所保留。
3 假如你的研究在进行之中,如果提前做好准备?
如果你的研究正在进行之中,或者正在计划之中,你可能需要采用一些方法来估计你的研究需要的样本量,并且(敲黑板),把你的估计过程公布出来。公布出来的意思,就是要进行预注册(pre-register),可以参考我之前的一个网文:如何预注册(Pre-register)你的研究?。
当然,预注册只是最后公布估计过程,但是如何估计这可能也是一个大问题。我个人的理解,也分成两种情况:第一、固定的样本量;第二、可以及时停止收数据的动态样本量。
固定样本量的估计,请看上一小节中的四种情况,不再赘述。
动态样本量的策略,有两种方法可以采用:传统频率主义之下的取向,参考Laken's的论文:Performing high‐powered studies efficiently with sequential analyses;贝叶斯主义的取向,参考这个论文:Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences。
再次强调,不管你决定使用固定样本量的策略,还是动态样本量的策略,一定要提前预注册你的方法,否则,及有可能审稿人不会相信你。毕竟,提前注册已经变得非常简单了,见极简的提前注册指南,英文版:OSF | HowToPreregister.pdf。